阅读指南
上一节回顾了语言模型的三代演进史。既然Transformer这么强大,模型需要多大才够用?为什么要搞得那么大?本节将探讨"大"语言模型的规模革命,以及语言模型与对话系统的本质区别。
经常听到"大语言模型"(Large Language Model, LLM)这个词。这个"大",到底有多大?为什么要这么大?
参数规模的爆炸式增长
一组数字记录了AI领域一场真正的军备竞赛:
GPT系列的参数,从2018年的GPT-1(1.17亿参数)到GPT-3(1750亿参数),仅仅两年时间,参数量就增长了约1500倍。
到2025-2026年,主流大模型已经进入万亿级时代:
GPT-4o (OpenAI, 2024): ~1.8万亿 参数
GPT-5 (OpenAI, 2025): 约2万亿 参数
Google Gemini 3 (2025): 1万亿 参数
Claude 4 (Anthropic, 2025): 约1.5万亿 参数
训练数据的海量堆积
GPT-2: 40GB文本 ≈ 80本百万字小说
GPT-3: 570GB文本 ≈ 1140本百万字小说
GPT-4/5: 未公开 (估计更大规模)
为什么需要这么多数据?
语言模型是通过"见识"来学习的。想象要学一门外语,如果只读过10篇文章,能掌握多少?但读过10万篇文章,语感会完全不同。
ChatGPT"读"过的文本,比一个人一辈子能读的多出几万倍。
"大"的哲学意义
这里有一个深刻的发现,也是过去十年AI研究最重要的洞察之一:
在语言模型领域,"大力出奇迹"是真实存在的。
不是线性的"大一点好一点",而是规模达到某个临界点后,能力突然跃升。
这种现象被称为"涌现能力",会在第8节详细讲解。那里会深入探讨Scaling Laws(缩放法则)——一个描述模型性能与规模之间数学关系的重要发现。
现在只需要记住:"大"不是虚荣,而是必需。没有这个"大",就没有ChatGPT的智能。
"大"的标准是什么?多大才算大?目前行业内没有严格的官方划分,但有一个约定俗成的分界线。
小语言模型(SLM - Small Language Model)
参数量小于100亿(< 10B)。代表模型包括ChatGLM-6B、Mistral-7B、LLaMA-2-7B。这类模型轻量级,可以在个人电脑或手机上运行。
中型语言模型
参数量在100亿到1000亿之间(10B - 100B)。代表模型有LLaMA-2-70B、Qwen-72B。需要多块GPU,但仍能本地部署。
大语言模型(LLM)
参数量大于1000亿(> 100B)。代表模型如GPT-3(175B)、GPT-4(估计万亿级)。需要巨型计算集群,通常只能通过云服务访问。
这个区分很重要,因为它决定了能力边界、部署成本和应用场景。
小模型适合特定领域任务,如文本分类、情感分析。大模型具备通用智能,能处理复杂的推理、创作任务。
小模型几千元的个人电脑就能运行。大模型需要数百万甚至数千万的GPU集群。
小模型适用于移动设备、边缘计算、隐私敏感场景。大模型适用于云服务、复杂任务、通用AI助手。
一个趣味的趋势:"小而精"的崛起
近年来,一个有意思的现象出现了。以前的思路是模型越大越好,现在的发现是小模型也可以很强。
例如:
Mistral-7B(仅70亿参数),能力接近GPT-3.5
ChatGLM-6B,能在个人电脑上运行,效果也不错
这说明:
对于现在的ChatGPT来说,它确实是一个"大"语言模型。
需要澄清一个容易混淆的概念。
ChatGPT不仅仅是一个语言模型,更是一个对话模型。
关键区分
可能听说过这些名字:GPT-3、GPT-4、GPT-3.5、ChatGPT……它们之间是什么关系?
GPT-1/2/3/4/5(基础语言模型)
GPT-1 (2018): 1.17亿参数
GPT-2 (2019): 15亿参数
GPT-3 (2020): 1750亿参数
GPT-3.5 (2022): 未公开(GPT-3的优化版)
GPT-4 (2023): 未公开
GPT-4o (2024): 未公开
GPT-5 (2025): 未公开
这些是技术名称,指的是基础语言模型。它们只经过预训练,能力是"预测下一个词"。
ChatGPT(对话产品)
ChatGPT 是产品名称,不是模型名称。
ChatGPT = 基础模型 + 对话训练
例如:
- ChatGPT(早期)= GPT-3.5 + 对话训练
- ChatGPT(后期)= GPT-4 + 对话训练
- ChatGPT(最新)= GPT-4o/GPT-5 + 对话训练
使用ChatGPT时,用的不是纯GPT-4,而是经过对话训练的ChatGPT(基于GPT-4)。它会"聊天"而不是简单"接龙",就是因为有额外的对话训练。
纯粹的语言模型只会"接龙",不会"对话"
如果直接用GPT-3(纯语言模型),问它:
"如何学习编程?"
它可能会这样"接龙":
"如何学习编程?这个问题很多人问过。首先,你需要明确你的学习目标……"
或者:
"如何学习编程?我也不知道。我从来没学过编程……"
为什么会这样?
纯语言模型的训练目标,只是"预测下一个词"。它在互联网文本中见过:
它只是在"接龙",把输入当成一篇文章的开头,继续写下去。它不知道你在问问题,也不知道要给出答案。
而对话模型可以理解"问答"这个概念。如果是ChatGPT(对话模型)会这样回应:
"学习编程可以遵循以下步骤:
- 选择一门编程语言:对于初学者,推荐Python,因为语法简单易读。
- 学习基础语法:通过在线教程(如Codecademy、freeCodeCamp)掌握变量、循环、函数等基本概念。
- 动手实践:做小项目,比如计算器、待办事项列表等,把知识应用到实际中。
- 阅读他人代码:看GitHub上的优秀项目,学习他人的编程思路。
- 持续学习:编程是一个不断学习的过程,保持好奇心和练习习惯很重要。
你想从哪门语言开始?"
它理解了你在提问,它知道要给出结构化的建议,它甚至会反问,引导对话继续。
这个差别是怎么来的?
答案是:预训练之后的额外训练步骤。
后面的章节会详细讲这个过程。现在只需要知道:
ChatGPT的"聊天"能力,不是预训练自然产生的,而是通过额外的训练"教"会的。
这也是为什么ChatGPT比GPT-3好用得多,虽然底层的语言模型可能差不多。
产品化的最后一公里,比技术突破更重要。
| 中文 | English | 音标 | 说明 |
|---|---|---|---|
| 大语言模型 | Large Language Model (LLM) | /lɑːdʒ ˈlæŋɡwɪdʒ ˈmɒdl/ | 参数量通常在数十亿到数千亿级别的语言模型 |
| 涌现能力 | Emergent Abilities | /ɪˈmɜːdʒənt əˈbɪlətiz/ | 模型规模超过某个阈值后突然出现的、小模型不具备的能力 |
| 基础模型 | Foundation Model | /faʊnˈdeɪʃən ˈmɒdl/ | 经过大规模预训练的通用语言模型,可作为下游任务微调的基础 |
| 监督微调 | Supervised Fine-Tuning (SFT) | /ˌsuːpərvaɪzd faɪn ˈtjuːnɪŋ/ | 使用人工标注的指令-回答数据训练模型理解和遵循人类指令 |
| 人类反馈强化学习 | Reinforcement Learning from Human Feedback (RLHF) | /ˌriːɪnˈfɔːrsmənt ˈlɜːnɪŋ frəm ˈhjuːmən ˈfiːdbæk/ | 通过人类偏好评分训练奖励模型,再用强化学习优化模型输出使其符合人类期望 |
| 对话模型 | Dialogue Model | /ˈdaɪəlɒɡ ˈmɒdl/ | 经过指令微调和对齐训练的、能进行多轮对话的语言模型 |
| 规模定律 | Scaling Laws | /ˈskeɪlɪŋ lɔːz/ | 描述模型性能随参数、数据、计算量增长而提升的经验规律 |